The Pile
https://pile.eleuther.ai/
The Pileは、825GiBの多様なオープンソースの言語モデリングデータセットで、22の小規模で高品質なデータセットが組み合わされて構成されています。